Comparación de los modelos

Se realizan test estadísticos sobre los resultados en train de los modelos y posteriormente se aplica el algoritmo de decisión multicriterio

Visualización de los errores

En esta primera sección visualizamos de forma gráfica y numérica los errores cometidos en las predicciones tanto en training (en cada uno de los pliegues) como en test en la predicción t. De esta forma podremos apoyarnos en los resultados para detectar modelos que pueden estar haciendo overfitting

RMSE

Lectura de los datos y descripción estadística

MAE

Lectura de los datos y descripción estadística

CC

Lectura de los datos y descripción estadística

Gráficas Train VS Test + Errores

Como hemos comentado, nos apoyaremos en las gráficas y en aquellos modelos para los que haya una diferencia de 0.20 o más entre las predicciones de train y test, que consideraremos que están haciendo overfitting

A simple vista, parece que hay dos modelos que están sobre entrenando, en ambos casos de lag. Estos son Random Forest y Gradient Boosting Regressor (GBR). Veamos numéricamente la diferencia entre los errores. Aquellos cuya diferencia sea de un valor >= 0.2 consideraremos que están sobre entrenando

Aunque podemos ver como en MAE las diferencias no parecen muy significativas, si que lo hacen en el caso del RMSE. Además, como podríamos esperar, estos modelos coinciden con los detectados en las gráficas

Análisis estadístico

Aplicamos los análisis estadísticos sobre las tres métricas consideradas, para ver si se encuentran diferencias significativas entre los modelos

RMSE

Aplicamos el test de Shapiro Wilk, la hipóstesis nula es H0: los datos siguen una distribución normal

En vista a los p-valores obtenidos, vemos que GBR_lag3 el p-valor < 0.05 luego rechazamos la hipótesis nula de que siga una distribución normal. Lo vemos gráficamente

Podemos afirmar al 95% de confianza que existen diferencias significativas entre los modelos, aplicamos el test de Nemenyi

La potencia del test de Nemenyi no permite detectar diferencias significativas, como podemos observar. Aplicamos por último el test no paramétrico de Wilcoxon

El test de Wilcoxon tampoco permite detectar las diferencias entre los modelos. Veamos que ocurre con MAE

MAE

Seguiremos el mismo procedimiento que con RMSE

De nuevo detecta que el modelo GBR Lag3 no sigue una distribución normal

De nuevo, un p-valor por debajo del nivel de significancia permite afirmar al 95% de confianza que existen diferencias significativas entre los modelos. Veamos si las detecta Nemenyi

Según el test de Nemenyi, debería de haber alguna diferencia significativa entre algunos modelos, puesto que existen p-valores por debajo del nivel de significancia. Veamos si las detecta el test de Wilcoxon

De nuevo, la potencia del test paramétrico no detecta diferencias significativas, no pudiendo establecer wins y losses. Seguramente esto se deba a que las diferencias son pequeñas, cerca del límite

CC

De nuevo, el modelo GBR Lag5 no sigue una distribución normal al 95% de confianza

Veamos si el test de Friedman de Chi Square indica que hay diferencias significativas

El p-valor < 0.05 así que seguimos con el test de Nemenyi, al rechazar la hipótesis nula de que no existen diferencias significativas

De nuevo aparece la presencia de valores inferiores al nivel de significancia, lo que indica que si existen, al 95% de confianza, diferencias significativas entre modelos

Tampoco consigue en este caso detectar diferencias significativas el test no paramétrico de Wilcoxon

Algoritmo de Decisión Multicriterio

Los test estadísticos no son concluyentes, pues aunque si apuntan a que existen algunas diferencias entre ciertos pares de modelos, no son detectables. Por ello, aplicamos el algoritmo de decisión multicriterio sobre los datos de test. Para ello, trabajaremos con todos los modelos excepto con los que hemos detectado que están haciendo overfitting

Detectamos los modelos que han hecho overfitting y los eliminamos

Transformamos las tablas, creando un dataframe para cada modelo donde se incluyan las tres métricas

Mostramos a continuación las gráficas de los modelos que muestran la evolución de RMSE, MAE y CC a lo largo de las predicciones

Para trabajar con el algoritmo de decisión multicriterio necesitamos normalizar los datos

CON PENDIENTES

Mostramos los resultados obtenidos en cada modelo

Nos quedamos con el mínimo de los valores obtenidos, este será nuestro mejor modelo

SIN PENDIENTES